18 research outputs found

    Euskarako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNet

    Get PDF
    Natural Language Processing techniques need to develop lexical-semantic knowledge bases (LSKB) in order to perform semantic interpretation. The IXA group decided to develop a Basque LSKB called EuskalWordNet for this reason. EuskalWordNet is based on WordNet and its multilingual counterparts EuroWordNet and the Multilingual Central Repository (MCR). This paper reviews the theoretical and practical aspects of the EuskalWordNet LSKB, as well as the steps followed in its construction

    Euskarako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNet

    Get PDF
    Natural Language Processing techniques need to develop lexical-semantic knowledge bases (LSKB) in order to perform semantic interpretation. The IXA group decided to develop a Basque LSKB called EuskalWordNet for this reason. EuskalWordNet is based on WordNet and its multilingual counterparts EuroWordNet and the Multilingual Central Repository (MCR). This paper reviews the theoretical and practical aspects of the EuskalWordNet LSKB, as well as the steps followed in its construction

    A methodology for the semiautomatic annotation of EPEC-RolSem, a basque corpus labeled at predicative level following the PropBank-Verb Net model

    Get PDF
    In this article we describe the methodology developed for the semiautomatic annotation of EPEC-RolSem, a Basque corpus labeled at predicate level following the PropBank-VerbNet model. The methodology presented is the product of detailed theoretical study of the semantic nature of verbs in Basque and of their similarities and differences with verbs in other languages. As part of the proposed methodology, we are creating a Basque lexicon on the PropBank-VerbNet model that we have named the Basque Verb Index (BVI). Our work thus dovetails the general trend toward building lexicons from tagged corpora that is clear in work conducted for other languages. EPEC-RolSem and BVI are two important resources for the computational semantic processing of Basque; as far as the authors are aware, they are also the first resources of their kind developed for Basque. In addition, each entry in BVI is linked to the corresponding verb-entry in well-known resources like PropBank, VerbNet, WordNet, Levin’s Classification and FrameNet. We have also implemented several automatic processes to aid in creating and annotating the BVI, including processes designed to facilitate the task of manual annotation.Lan honetan, EPEC-RolSem corpusa etiketatzeko jarraitu dugun metodologia deskribatuko dugu. EPEC-RolSem corpusa PropBank-VerbNet ereduari jarraiki predikatu-mailan etiketatutako euskarazko corpusa da. Etiketatze-lana aurrera eramateko euskal aditzen izaera semantikoa aztertu eta ingeleseko aditzekin konparatu dugu, azterketa horren emaitza da lan honetan proposatzen dugun metodologia. Metodologiaren atal bat PropBank-VerbNet eredura sortutako euskal aditzen lexikoiaren osaketa izan da, lexikoi hau Basque Verb Index (BVI) deitu dugu. Gure lanak alor honetan beste hizkuntzetan dagoen joera nagusia jarraitzen du, hau da, etiketatutako corpusetatik lexikoiak sortzea. EPEC-RolSem eta BVI oso baliabide garrantzitsuak dira euskararen semantika konputazionalaren alorrean, izan ere, euskararako sortutako mota honetako lehen baliabideak dira. Honetaz guztiaz gain, BVIko sarrera bakoitza PropBank, VerbNet, WordNet, Levinen sailkapena eta FrameNet bezalako baliabide ezagunekin lotua dago. Hainbat prozesu automatiko inplementatu ditugu EPEC-RolSem corpusaren eskuzko etiketatzea laguntzeko eta baita BVI sortzeko eta osatzeko ere

    Corpusen etiketatze linguistikoa

    Get PDF
    In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study

    Corpusen etiketatze linguistikoa

    Get PDF
    In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study

    Construcción de un corpus etiquetado sintácticamente para el euskera

    Get PDF
    El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for Basque. In this paper we present first, the basis of the annotation. After examining several options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus. After the formalism has been presented, we will describe the problems we have found and the decisions we have taken to solve them. Next we present an example showing the application of the scheme to an initial corpus. Finally, we present the main conclusions about the applicability to Basque and future work.Este trabajo se ha realizado dentro del proyecto "Construcción de una base de datos de árboles sintácticos y semánticos", subvencionado por el Ministerio de Educación y Ciencia (PROFIT: FIT-150500-2002-244)

    Estudio de la subcategorización verbal vasca, desde la sintaxis parcial hacia la sintaxis profunda. Análisis de 100 verbos vascos, basándose en Levin (1993) y utilizando métodos automáticos

    No full text
    329 p.En esta tesis se hace una propuesta inicial de las características léxicas necesarias para la definición de la subcategorización de un verbo, tomando como punto de partida el trabajo de Levin (1993), y haciendo uso de métodos automáticos. La finalidad de este trabajo es enriquecer el léxico computacional y ofrecer una buena base para facilitar las diferentes tareas de realizar en otros niveles lingüísticos tales como la sintáxis, la semántica etc; centrándonos concretamente en las siguientes: desambiguación de casos y funciones, desambiguación de estructuras sintácticas, y establecimiento de los límites entre las oraciones. Se ha tomado como punto de partida el trabajo de Levin (1993) por considerarse su metodología la más adecuada para aplicarla desde una perspectiva computacional, ya que parte de las estructuras sintácticas para luego hacer grupos semánticamente coherentes basándose en éstas. Sin embargo, el trabajo de esta autora no carece de problemas. Así, antes las inconsistencias detectadas, se ha establecido un proceso de trabajo propio: se ha definido el concepto de alternancia, se han analizado las alternancias del trabajo de Levin (1993) para el euskera según dicha definición, y como conclusión se ha visto necesario definir lo que hemos denominado valores sintáctico/semánticos (vss) de cada verbo como realización subcategorial. Y para ello hemos realizado un estudio de 100 verbos vascos basándonos en corpus reales. En definitiva, la propuesta inicial que se hace en esta tesis es fruto de la combinación de los tres trabajos: los datos estadísticos proporcinados por las herramientas informáticas, el estudio teórico, y la casuistica y fenomenología encontrada en el trabajo descriptivo del corpus. Junto a ello, proponemos líneas de trabajo aplicables en la estracción de subcaterogrización, así como pautas a seguir en el estudio de más verbos

    Estudio de la subcategorización verbal vasca, desde la sintaxis parcial hacia la sintaxis profunda. Análisis de 100 verbos vascos, basándose en Levin (1993) y utilizando métodos automáticos

    Get PDF
    329 p.En esta tesis se hace una propuesta inicial de las características léxicas necesarias para la definición de la subcategorización de un verbo, tomando como punto de partida el trabajo de Levin (1993), y haciendo uso de métodos automáticos. La finalidad de este trabajo es enriquecer el léxico computacional y ofrecer una buena base para facilitar las diferentes tareas de realizar en otros niveles lingüísticos tales como la sintáxis, la semántica etc; centrándonos concretamente en las siguientes: desambiguación de casos y funciones, desambiguación de estructuras sintácticas, y establecimiento de los límites entre las oraciones. Se ha tomado como punto de partida el trabajo de Levin (1993) por considerarse su metodología la más adecuada para aplicarla desde una perspectiva computacional, ya que parte de las estructuras sintácticas para luego hacer grupos semánticamente coherentes basándose en éstas. Sin embargo, el trabajo de esta autora no carece de problemas. Así, antes las inconsistencias detectadas, se ha establecido un proceso de trabajo propio: se ha definido el concepto de alternancia, se han analizado las alternancias del trabajo de Levin (1993) para el euskera según dicha definición, y como conclusión se ha visto necesario definir lo que hemos denominado valores sintáctico/semánticos (vss) de cada verbo como realización subcategorial. Y para ello hemos realizado un estudio de 100 verbos vascos basándonos en corpus reales. En definitiva, la propuesta inicial que se hace en esta tesis es fruto de la combinación de los tres trabajos: los datos estadísticos proporcinados por las herramientas informáticas, el estudio teórico, y la casuistica y fenomenología encontrada en el trabajo descriptivo del corpus. Junto a ello, proponemos líneas de trabajo aplicables en la estracción de subcaterogrización, así como pautas a seguir en el estudio de más verbos

    From dependencies to constituents in the reference corpus for the processing of Basque (EPEC)

    Get PDF
    En este artículo se expone el proceso adoptado para la transformación de un treebank anotado con dependencias a un treebank anotado con constituyentes. En este trabajo se toma en cuenta primeramente las características de ambos formalismos, para luego proponer las correspondientes equivalencias lingüísticas. Al final se explica brevemente el desarrollo, mediante refinamientos de las equivalencias lingüísticas, llevado a cabo. La evaluación del trabajo realizado es satisfactoria ya que el resultado es que en este momento es posible explotar y trabajar con corpus anotados en los dos formalismos normalmente usados en la tarea de etiquetado sintáctico. Si las equivalencias lingüísticas son iguales, la conversión es expansible a otros corpus; de lo contrario, habría que volver a definir nuevas equivalencias.In this paper the process for turning a dependency-based corpus to a constituent- based one is explained. For this purpose, first both the Dependency and the Constituent formalism are analized and then the corresponding equivalences of linguistic phenomena are treated. This process has had different phases in which the linguistic equivalences have been improved. Finally, the evaluation process is briefly explained and, as a result, we get corpora annotated in the two different formalisms usually proposed for syntactic tagging. If the linguistic equivalences are the same, the conversion process could be expanded to other corpus; otherwise, new equivalences should be defined
    corecore